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摘 要 : [目的 /意义 ] 针 对 序列 比 对 算法 在 文本 相似 度 中 的 应 用 ,改进 全 局 比 对 算法 并 提高 该 算法 的 准确 性 ,同时 ,应 用 局 
部 比 对 算法 有 效 解决 内 容 差 异 或 长 短 差异 较 大 的 两 文本 进行 比 对 的 问题 。[ 方 法 /过 程 | 首先 ,利用 HanLP 中 的 
CRF 模型 对 在 线 学 术 资 源 中 文 文本 数据 集 进 行规 范 化 处 理 ,构成 中 文 序列 集 ; 然 后 ,使 用 最 新 的 中 文 维基 百科 语 
料 训练 Word2Vec 模型 来 构建 语词 对 打分 矩阵 ;最 后 ,基于 打分 矩阵 和 改 进 的 打分 规则 ,对 进行 全 局 比 对 /局 部 比 
对 的 两 中 文 序列 进行 比 对 并 获得 比 对 的 最 优 解 ,回溯 该 最 优 解 ,获取 最 优 解 的 比 对 路 径 , 计 算 两 中 文 序列 的 相似 
度 。[ 结果 /结论 ] 实验 结果 表明 , 相 较 于 目前 全 局 比 对 算法 的 相关 研究 ,本文 基 于 词性 标注 的 结果 与 Word2Vec 构 
建 的 语词 对 打分 矩阵 进一步 提升 了 全 局 比 对 算法 计算 文本 相似 度 的 准确 性 ,同时 ,应 用 于 文本 相似 度 计算 的 局 部 
比 对 算法 能 够 有 效 解 决 内 容 差 异 或 长 短 差异 较 大 的 两 文本 进行 比 对 的 问题 。 
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词性 标注 Word2Vec 序列 比 对 局 部 比 对 文本 相似 度 


随 着 信息 技术 的 迅速 发 展 ,对 互联 网 产生 的 海量 
区 相信 息 进 行 挖 气 和 研究 能 提供 给 用 户 有 价值 的 内 
容 绽 上 文本 的 分 类 聚 类 个 性 化 推荐 .信息 抽取 、 信 息 检 
毁 伯 索引 擎 等 ,而 文本 相似 度 作 为 衡量 文本 间 的 差异 


nd 
Ct) 


和 臣 隆 的 方法 ,也 是 这 些 技术 任务 的 核心 环节 "2 。 
近 第 来 ,文本 相似 度 主要 被 应 用 在 词义 消 战 .自动 摘要 
所 大 .机 器 翻译 自动 评估 、 数 据 库 的 模式 匹配 及 语义 异 
构 问 题 等 研究 中 ""。 在 中 文 信息 处 理 领域 ,计算 中 文 
字符 串 , 如 词语 .词组 等 的 相似 度 计算 对 词典 编纂 、 基 
于 实例 的 机 器 翻译 、 自 动 问答 .信息 过 滤 等 都 具有 重要 
的 作用 中 ,目前 ,文本 相似 度 计算 领域 主要 包含 了 基于 
字符 串 的 方法 .基于 语料库 的 方法 .基于 知识 库 的 方法 
和 混合 方法 *” ,其 中 序列 比 对 算法 属于 基于 字符 串 
的 方法 且 该 方法 用 于 时 序数 据 和 流 式 数据 具有 不 错 的 
效果 。 此 外 ,序列 比 对 算法 在 中 文 里 的 应 用 根据 所 
比 对 字符 粒度 大 小 和 比 对 方式 的 不 同 还 能 用 于 语义 挖 
据 文 本 分 类 与 聚 类 .个 性 化 推荐 .智能 检索 等 。 

序列 比 对 算法 源 于 生物 信息 学 领域 ,是 对 序列 进 


行 分 析 从 而 了 解 基因 结构 和 功能 最 常用 和 最 经 典 的 研 
究 手 段 ,通常 是 对 氨基 酸 序 列 之 间或 核酸 序列 之 间 两 
两 比 对 来 比较 两 条 序列 之 间 的 相似 区 域 和 保守 性 位 点 
寻求 同 源 结 构 ,揭示 生物 进化 .遗传 和 变异 等 问题 ” 。 
1970 年 ,S. B. Needleman 与 C. D. Wunsch 提出 了 双 序 
列 全 局 比 对 算法 后 ] ;1975 年 ,TT. FF. Smith 与 M. S. Wa- 
terman 在 S. B. Needleman 与 C. D. Wunsch 所 提出 算法 
的 基础 上 提出 了 改进 的 双 序列 局 部 比 对 算法 " ;之 
后 , 随 着 生物 信息 学 的 不 断 发 展 ,2019 年 ,出 现 了 诸多 
序列 比 对 的 工具 及 软件 “并 不 断 改 进 完 善 ,近年 来 
关于 序列 比 对 算法 的 研究 多 是 对 于 序列 比 对 算法 的 改 
进 与 加 速 -” ,同时 ,2020 年 R.J LU,X. ZHAO 等 还 
使 用 序列 比 对 算法 来 研究 了 COVID-19 与 SARS 病毒 、 
MERS 病毒 的 基因 相似 性 1。 在 图 情 领域 ,2010 年 ， 
徐 硕 等 最 先 提出 使 用 全 局 比 对 算法 来 计算 中 文 文 
本 的 相似 度 , 解 决 了 传统 的 语义 相似 度 计算 方法 没有 
考虑 文本 语词 顺序 的 问题 ;2014 年 , 王 汀 等 ”提出 的 
全 局 比 对 算法 中 ,参考 田 久 乐 等 ”对 于 同义词 林 的 研 
究 , 改 进 了 全 局 比 对 算法 比 对 词语 的 合理 性 与 准确 性 ， 
但 受 限于 同义词 林 的 覆盖 范围 和 广度 ,该 方法 只 能 在 
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地 定 领域 有 一 定 效果 ; 熊 回 香 等 ”基于 Word2Vec 来 
构建 语词 对 打分 矩阵 ,大 大 提高 了 该 算法 的 准确 性 并 


域 得 到 了 广泛 的 应 用 ,以 其 为 基础 进行 的 各 种 人 研究 也 
在 逐步 递增 ,Word2Vec 目前 已 成 为 自然 语言 处 理 领域 


有 效 处 理 了 中 文 文本 中 所 出 现 的 “重复 词 对 "的 问题 。 
但 目前 的 相关 研究 中 ,对 于 序列 比 对 算法 的 研究 
还 存在 一 个 局 限 , 即 只 有 当 分 词 后 的 两 条 中 文 文本 之 
间 在 内 容 和 长 度 上 差异 较 小 时 ,全 局 比 对 算法 才 较 为 
有 效 ,针对 这 一 情况 ,本 文 提出 了 改进 的 局 部 比 对 算法 
来 应 对 内 容 和 长 度 差异 较 大 的 两 文本 进行 序列 比 对 的 
问题 。 为 了 更 好 地 将 序列 比 对 算法 运用 到 中 文 文本 相 
似 度 计算 研究 当中 ,本 文 基于 CRF 模型 词性 标注 的 结 
果 与 Word2Vec 构建 的 语词 对 打分 矩阵 来 进一步 提高 
全 局 比 对 算法 以 更 好 地 挖掘 中 文 文本 之 间 的 相似 性 关 
系 , 同 时 ,应 用 局 部 比 对 算法 来 有 效 解决 内 容 差异 或 长 
短 差 异 较 大 的 两 本 文 进行 比 对 的 问题 ,进一步 提升 序 
列 起 对 算法 计算 中 文 文本 相似 度 的 效果 与 准确 性 ,以 
使 御 序 列 比 对 算法 在 中 文 文本 相似 度 中 的 运用 更 为 准 
确 会 理 。 
2 一 CRF 模型 Word2Vec 与 序列 比 对 算法 
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CRF 模型 
CJ 随 着 研究 者 不 断 提出 各 种 应 用 于 语言 信息 处 理 领 
域 本 数字 模型 ,基于 统计 的 分 词 技术 逐渐 成 为 主流 ， 
EN MEMM 以 及 CRF 是 常 被 用 到 的 3 种 统计 模 
型 。 其 中 CRF 没有 HMM 那样 严格 的 独立 性 假设 
胸 作 ,可 以 更 好 地 容纳 上 下 文 信息 ;同时 ,CRF 模型 具 
有 ZNMEMM 判别 式 模型 的 特点 ,对 数据 量 要 求 小 .速度 
快 维 确 率 高 , 相 比 较 传统 的 一 些 分 词 模型 与 工具 , 具 
有 已 定 的 优势 ,并 常 被 用 于 句法 分 析 、 命 名 实体 识别 、 
词性 标注 等 自然 语言 处 理 任务 当中 。 

HanLP 是 由 何 蛤 2014 年 开发 并 开源 于 GitHub 的 
一 款 NLP 工具 ,其 包含 了 最 长 匹配 .HMM 感知 机 、 
CRF 等 自然 语言 处 理 模型 ,同时 , HanLP 参考 CoNLL- 
Xi Biaffine'”1 FastTexti3 .BERT"” 等 更 进一步 提高 
了 HMM .CRF 等 处 理 自然 语言 处 理 的 效果 和 准确 性 。 
HanLP 所 包含 的 CRF 模型 具备 了 良好 的 分 词 与 词性 
标注 功能 ,也 能 很 好 地 识别 未 登陆 词 ,基于 此 ,笔者 先 
取 HanLP 的 CRF 模型 来 完成 实证 研究 中 一 系列 的 自 
然 语言 处 理 任务 。 
2.2 Word2Vec 模型 

Word2Vec 是 Google 于 2013 年 以 深度 学 习 的 思想 
为 基础 开发 的 一 种 词 向 量 模型 , 主要 用 于 实现 文本 信 
息 由 非 结 构 化 形式 到 向 量化 形式 的 转变 ”。 自 
Word2Vec 发 布 以 来 ,Word2Vec 已 在 自然 语言 处 理 领 


最 具 代 表 性 的 工具 之 一 。Word2Vec 通过 学 习 文 本 能 
够 将 字 词 转换 为 向 量 的 形式 ,并 用 词 向 量 的 方式 表征 
词 的 语义 信息 ”。 此 外 ,Word2Vec 作为 一 种 自然 语言 
处 理工 具 , 其 最 大 的 特点 之 一 就 是 以 上 下 文 信息 为 基 
础 实现 词 的 特征 表示 ,从 而 解决 维度 灾难 的 问题 。 
2.3 序列 比 对 算法 

序列 比 对 算法 主要 分 为 2 种 , 即 寻找 序列 之 间 全 
局 相似 性 的 全 局 比 对 算法 与 寻找 序列 之 间 局 部 相似 性 
的 局 部 比 对 算法 ,两 种 算法 共用 同一 语词 对 打分 矩阵 
来 比 对 文本 中 具有 相似 关系 的 词语 ,以 进一步 探究 文 
本 之 间 的 相似 关系 。 
2.3.1 相关 概念 基础 

序列 比 对 算法 应 用 于 中 文 文本 相似 度 的 研究 ,是 
将 两 个 中 文 文本 分 词 后 处 理 为 以 词语 形式 按 顺 序 排列 
的 两 条 中 文 序列 ,然后 将 两 条 中 文 序列 排列 在 一 起 比 
较 其 相似 之 处 ,序列 中 可 通过 插入 空位 符 以 使 得 两 条 
序列 中 尽 可 能 多 的 相同 或 相似 的 词语 排 在 同一 列 上 。 
为 更 好 地 阐明 序列 比 对 算法 如 何 用 于 研究 中 文 文本 ， 
参考 文献 [12 ] [26] 对 本 文 方法 涉及 的 相关 概念 进行 
阐述 : 

(1) 中 文 序列 cs;(ie 171,2,3,…,n|)。cs; 是 某 一 
中 文 文本 经 过 预 处 理 分词 而 获得 的 语词 序列 , 且 形 式 
化 表示 为 cs = {4 ,t;;， | ,其 中 ,表示 
cs; 第 k 个 词语 ,这 些 语词 按照 原来 的 顺序 依次 排列 构 
成 cs;。 

(2) 中文 序列 集 CS(Chinese Sequence Set)。CS= 
,csu| ,n 表示 CS 中 所 含 中 文 序列 的 
个 数 ,cs; 表示 中 文 序列 集 CS 中 的 第 i 条 中 文 序列 。 
(3 ) 比 对 算 阵 M( Alignment Matrix ) 。 Ms 表示 Cs, 


a ;tip 六 SA 


| cs， »C52 ,9 CS 


i 
ti ,| 进行 比 对 的 过 程 中 所 产生 的 结果 ,由 于 在 进行 比 对 
之 前 要 在 该 矩阵 中 插入 一 行 空位 符 ”- ”和 一 列 空位 
符 “ -”, 最 终 M 的 大 小 为 (m+1) x (q+1) ,其 中 ML ， 
表示 cs; 的 第 k 个 词语 与 cs 的 第 p 个 词语 进行 比 对 的 
结果 。 
(4) 语 词 对 打分 矩阵 W(Words Grade Matrix) 。 若 
要 对 cs 与 cy 进行 比 对 ,就 需要 有 一 个 介 于 0 -1 之 间 
的 值 来 度量 任意 两 语词 1, 与 5, 的 相似 性 ,将 该 值 记 为 
sim(ti, sti,) ,语词 对 打分 矩阵 则 用 来 保存 所 有 满足 条 
件 的 sim(tii,ti,) ,以 供给 cs; 与 cs; 进行 比 对 时 参考 。 
(5) 打 分 规则 G(Grade Rules ) 。cs; 与 cs) 进行 比 
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对 时 , 若 所 比 对 的 两 词语 出 现 错位 匹配 或 空位 匹配 就 
惩罚 0.05 分 ( 即 G = -0.05 分 ) ; 若 所 比 对 的 两 词语 能 
够 参考 W 获得 一 个 0 -1 之 间 的 分 值 , 则 是 相似 匹配 ; 
若 所 比 对 的 两 词语 完全 相同 则 是 完全 匹配 ,此 时 G =1 
分 。 

(6) 比 对 得 分 的 计算 S(Final Alignment Scores ) 。 
cs 与 cs 的 比 对 结束 后 ,匹配 后 的 每 一 对 词语 此 时 都 有 
了 一 个 打分 ,根据 不 同 的 序列 比 对 算法 的 要 求 ,将 有 效 
的 打分 进行 累加 ,就 能 得 到 比 对 结果 最 终 的 得 分 S。 

序列 比 对 算法 之 所 以 能 很 好 地 应 用 于 生物 信息 学 
领域 ,是 因为 其 参考 了 基于 海量 核酸 以 及 氨基 酸 统计 
构建 的 打分 矩阵 ,Word2Vec 基于 上 下 文 环境 相似 的 两 
个 词 有 着 近似 含义 的 思想 ,经 过 大 量 语 料 训练 之 后 ,可 
LJ 和 好 地 表示 出 语词 的 词 向 量 并 通过 计算 向 量 余弦 值 
河 者 化 语词 对 在 数值 上 的 关系 ,这 种 方式 与 生物 信息 
学 领域 构建 核酸 与 蛋白 质 的 打分 矩阵 的 思想 十 分 接 
过 5 因此 ,为 促使 序列 比 对 算法 能 够 更 加 合理 有 效 地 
适用 于 中 文 文本 相似 度 计算 的 研究 当中 ,本 文选 取 了 
Wetd2Vec 来 计算 中 文 词 语 之 间 的 相似 性 以 构建 用 于 
中 S52 文本 比 对 所 需 的 语词 对 打分 矩阵 。 
QJ 上 述 相关 概念 中 ,语词 对 打分 矩阵 则 是 序列 比 对 
个 演 应 用 于 研究 中 文 文本 之 间 相似 性 的 核心 基础 ,该 
打 谷 矩阵 供给 cs; 与 cy 进行 比 对 时 所 参考 ,从 而 更 好 
地 度量 cs 与 cy 的 相似 关系 。 构 建 打分 矩阵 的 过 程 如 
力 全 所 示 ,使 用 训练 好 的 Word2Vec 来 计算 os; 与 cy 之 
间 住 意 两 词语 的 余弦 相似 度 , 并 将 所 有 满足 打分 条 件 
的 玉 in(1i, ,ti,) 放 入 语词 对 打分 矩阵 当中 后 ,就 构建 好 
了 由 分 矩阵 。 


CS={cs1cs2 CS5Cs 一 一。 不 与 坊 p 向 量化 


| 余弦 相似 度 计算 
| 站 
语料库 一 一 > Word2Vec | Sim(csi,cs)) 


1 语词 对 相似 度 计算 过 程 


以 表 1 所 示 由 Word2Vec 所 构建 的 语词 对 打分 矩 
阵 为 例 , 根 据 本 文 所 选 语料库 训练 的 Word2Vec 模型 构 
建 语词 对 打分 矩阵 ,为 保证 更 准确 的 打分 效果 , 设 定 打 
分 条 件 为 sim(ti;,ti,) >0.65, 此 时 ,图 1 所 示 的 打分 
和 矩 阵 中 就 包含 了 所 有 sim(ti; ,ti,) >0.65 的 语词 对 ,而 
所 有 sim(tii,ti,) 夺 0.65 的 语词 对 根据 打分 规则 统一 
计 为 -0.05。 当 使 用 序列 比 对 算法 来 度量 两 中 文 序列 
的 相似 性 时 ,该 语词 对 打分 和 矩阵 就 为 如 何 比较 词语 之 
间 的 相似 性 提供 了 一 个 参考 ,如 比 对 过 程 中 “国内 ”与 


UD 


“城市 ” 比 对 在 一 起 ,G = 0.69 分 ;“ 基 于 ”与 “推荐 ” 
比 对 在 一 起 ,G = -0.05 分 ,直到 比 对 结束 ,再 综合 两 
序列 之 间 具 有 相似 性 的 词语 来 判定 两 中 文 序列 整体 
或 局 部 上 的 相似 关系 ,所 构建 的 语词 对 打分 矩阵 越 
加 准确 和 规范 ,序列 比 对 算法 的 效果 就 越 好 , 比 对 结 
果 就 更 为 准确 ,从 而 更 好 地 度量 两 中 文 文本 的 相似 
度 。 


表 1 语词 对 相似 度 打分 矩阵 


基于 城市 ”知识 图 谱 ”推荐 现状 人 研究 

基于 1.00 -0.05 -0.05 -0.05 0.69 0.71 

国内 —0.05 0.69 -0.05 -0.05 0.74 由 一 0.05 

知识 图 谱 -0.05 -0.05 1.00 -0.05 -0.05 0 一 0.05 

现状 一 0.05 0.66 -0.05 -0.05 1.00 0 0.72 
2.3.2 全 局 比 对 算法 


目前 的 相关 研究 对 于 如 何 将 全 局 比 对 算法 应 用 于 
中 文 文本 相似 度 的 计算 已 有 一 定 的 研究 ,该 算法 旨 在 
从 整体 上 分 析 两 条 中 文 序列 的 相似 关系 , 即 考虑 两 序 
列 的 总 长 ,对 两 序列 中 所 有 的 字符 进行 比 对 来 寻找 能 
使 得 全 局 相似 性 最 大 化 的 解 。 

为 阐明 传统 的 全 局 比 对 算法 ,以 两 中 文 文本 "基于 
GIS 的 城市 规划 知识 图 谱 的 研究 现状 与 趋势 "和 “基于 
国内 医疗 知识 图 谱 的 医生 个 性 化 推荐 研究 ”进行 全 局 
比 对 为 例 ,分 词 后 得 到 cs = /基于 ,G1S , 城 方 ,规划 , 知 
识 , 图 说 ,研究 ,现状 ,站 妆 | ,csj = /大于 ,国内 ,医疗 , 知 
识 , 图 说 ,医生 ,个 作 化 ,推荐 ,研究 , 介 于 中 文 纷 繁复 
杂 的 语词 组 合 .复杂 多 变 的 中 文 文法 以 及 中 文 表达 ”前 
轻 后 重 " 等 特点 ,中 文 文本 里 更 为 重要 的 内 容 常常 出 现 
在 后 半 部 分 ,因此 ,cs; 与 cy 进行 全 局 比 对 时 从 尾 到 头 
进行 比 对 , 比 对 过 程 如 图 2 所 示 , 比 对 过 程 中 根据 打分 
规则 及 表 1 所 示 打 分 矩阵 进行 比 对 打分 ,直到 全 部 的 
词语 比 对 结束 为 止 , 比 对 过 程 中 会 对 打分 进行 累加 以 
获得 比 对 得 分 ,动态 规划 寻找 最 终 比 对 得 分 最 高 的 那 
组 解 作为 最 优 解 。 
比 对 完成 后 ,图 2 所 示 比 对 得 分 为 4.34 的 这 组 解 
为 最 优 解 ,此 时 还 需要 从 头 到 尾 进 行 回溯 ,获取 该 最 优 
解 的 比 对 路 径 并 确保 比 对 路 径 的 准确 性 ,最 终 , 获 得 表 
2 所 示 的 结果 (图 2 所 示 比 对 矩阵 展示 了 cs; 与 cs 的 比 
对 过 程 ,其 中 横向 第 头 与 纵向 第 头 表 示 空 位 匹配 , 即 茶 
一 序列 的 词 与 另 一 序列 的 空位 符 ”- "匹配 ; 斜 箭头 表 
示 词 语 与 词语 的 匹配 , 即 表 示 完 全 匹配 、 相 似 匹 配 或 错 
位 匹配 ) 。 
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基于 


GIS 城市 规划 知识 图 谱 研究 现状 趋势 gap 
基于 4.34、1000.25< 一 0.30< 一 0.35< 一 0.40< 一 0.45< 一 0.50 -0.55 -0.45 -0.45 
内 329< 一 334422 3.39 ao040 + 045 + 一 050+ 0 条 -0 fo ‘0p0 
医疗 。 2.55 < 一 2.60 < 一 2.65 < 一 2.70 、 00;0.50 < 一 0.55 < 一 0.60 -045 -085 -085 
知识 。 2.55 < 一 2.60 < 一 2.65 + 一 2.70 < 一 2.75 、000.60<* 一 0.65 040 -080 -080 
图 谱 。 1.50 < 一 1.55 < 一 1.60 < 一 1.65 < 一 1.70 < 一 1.75 、000.70 -035 025 -025 
医生 0.45< 一 0.50< 一 0.55< 一 0.60< 一 0.65 < 一 0.70< 一 0.75 -030 -020 -0.20 
个 性 化 0.50 < 一 0.55 < 一 0.60 < 一 0.65 < 一 0.70 < 一 0.75 < 0 人 0 .055 os 0.15 
推荐 055< 060< 065+ 070< 075 080<* 085 -0bo -oo .0t10 
研究 。 0.60< 一 0.65 < 一 0.70< 一 0.75< 一 0.80 < 一 0.85 < G9 .045 -Otos .0s 
gap -0.45+—-0.40+—-0.35+—-0.30+—-0.25<—-0.20 < 一 -0.15< 00e .0.05 2 
2 cs; 与 cy) 的 全 局 比 对 矩阵 
表 2 ccs; 与 cy) 全 局 比 对 的 最 优 解 比 对 路 径 
斤 钢 完全 匹配 ”空位 匹配 ”相似 匹配 ”错位 匹配 ”完全 匹配 ”完全 匹配 ”空位 匹配 ”空位 匹配 ”空位 匹配 ”完全 匹配 ”空位 匹配 ”空位 匹配 
> 基于 GIS 城市 规划 知识 图 谱 一 过 一 人 研究 现状 趋势 
[7 基于 - 国内 医疗 知识 图 谱 医生 个 性 化 推荐 研究 - 
G 1 —0.05 0.69 -0.05 1.00 1.00 -0.05 —0.05 —0.05 1.00 -0.05 —0.05 
LO 4.34 3.34 3.39 2,70 和 3 和 于 0.80 0. 85 0.90 -0.10 —0.05 


@ 全 局 比 对 结束 后 会 获得 序列 长 度 一 样 的 两 条 中 文 


席 列 。e 与 的 全 局 比 对 之 前 的 序列 长 度 (词语 个 
产 )) 别 为 已 =9, 轧 =9, 全 局 比 对 结束 后 ,由 于 空位 匹 
酥 说 傅 况 在 中 文 序列 中 插入 了 空位 符 " - "(空位 符 在 


红 对 中 视 作 一 个 词语 ) ,使 得 cs; 与 cy 的 最 优 解 序列 长 


(2) 比 对 序列 长 度 差异 较 大 的 cs; 与 cs 时 效果 极 
差 。 与 (1) 原理 相同 , 当 所 比 对 的 cs; 与 cs; 中 有 一 方 包 
含 了 更 多 的 词语 时 ,全 局 比 对 算法 在 递归 寻找 最 优 解 
的 过 程 中 需要 遍历 更 多 的 词语 ,同时 会 插入 更 多 的 空 
位 符 来 补 全 cs; 与 cy 的 比 对 结果 ,此 时 ,最 优 解 的 比 对 


度 光 =L =12。 基 于 最 优 解 比 对 得 分 与 序列 长 度 , 参 
欧 从 式 (1) ,两 序列 的 相似 度 为 sim( es,cs)) =4. 34/12 
= 区 362。 全 局 比 对 算法 属于 动态 规划 算法 ,其 比 对 过 
程 往 在 很 多 重复 计算 ,在 获得 最 优 得 分 与 最 优 比 对 路 
全 移 过程 中 相当 于 做 了 正比 于 比 对 箱 阵 M 大 小 的 
xq 次 计算 ,其 时 间 复杂 度 为 O(n)。 


sim( bk sbi, ) 


sim( CSi CS ) = Di I 公式 (1) 


全 局 比 对 算法 虽然 能 够 较 好 地 应 用 于 内 容 差 异 较 
小 的 两 文本 的 相似 度 计算 ,但 在 如 下 两 个 方面 仍 存在 
着 很 大 的 局 限 : 

(1) 比 对 内 容 差异 较 大 的 cs; 与 cs 时 效果 较 差 。 
全 局 比 对 算法 对 于 全 局 上 有 和 较 多 相似 之 处 的 cs; 与 cs， 
具有 不 错 的 效果 ,但 如 果 所 比 对 的 os, 与 cv 只 有 少数 
词语 存在 相似 关系 , 则 很 容易 出 现 如 表 3 所 示 的 结果 ， 
即 由 于 所 示 的 两 中 文 序列 整体 上 的 相似 性 较 差 ,全 局 
比 对 算法 在 寻找 cs, 与 cy 全 局 上 的 相似 性 时 会 出 现 大 


得 分 明显 下 降 ,最 优 解 的 序列 长 度 也 显著 增加 ,导致 全 
局 比 对 算法 的 效果 大 打折 扣 。 

基于 上 述 ,笔者 应 用 局 部 比 对 算法 来 有 效 解 决 内 
容 差异 或 长 短 差 异 较 大 的 两 本 文 进行 比 对 的 问题 ,以 
进一步 提升 序列 比 对 算法 的 计算 中 文 文本 相似 度 的 效 
果 与 准确 性 。 
2.3.3 ”局 部 比 对 算法 

全 局 比 对 算法 由 在 寻找 cs; 与 cy 全 局 上 的 最 优 
解 , 而 局 部 比 对 算法 则 是 寻找 cs; 与 cs 局 部 上 的 最 优 
解 , 局 部 比 对 在 比 对 过 程 中 所 有 S 值 小 于 0 的 分 值 都 
记 为 0 而 非 负 值 , 同 时 , 比 对 结束 后 ,回溯 返回 一 个 包 
含 最 大 S 值 的 子 序列 ,而 非 完 整 的 序列 ;局 部 比 对 是 在 
整个 比 对 过 程 中 寻找 中 文 两 序列 局 部 上 $ 值 最 高 的 这 
一 组 解 作为 最 优 解 ,但 $ 值 所 对 应 的 解 只 包含 两 序列 


在 局 部 上 比 对 出 的 部 分 词语 。 以 cs; = | 基于 ,GIS, 城 
市 ,规划 ,知识 ,图 谱 , 研 究 , 现 状 ,趋势 | 与 cy = | 基于， 


国 


内 ,医疗 ,知识 ,图 谱 , 医 生 , 个 性 化 ,推荐 ,研究 | 进行 


量 的 空位 匹配 ,这 不 仅 降 低 了 比 对 得 分 ,而 且 增加 了 最 
优 解 下 的 序列 长 度 , 从 而 导致 sim( cs;,cs;) 的 效果 与 准 
确 性 均 有 所 下 降 。 


局 部 比 对 为 例 ,如 图 3 所 示 , 在 比 对 矩阵 中 ,所 有 小 于 0 
的 得 分 都 被 计 为 0, 从 尾 到 头 进 行 比 对 可 得 S =3.59 的 
这 一 组 解 为 最 优 解 , 比 对 结束 后 ,回溯 出 如 表 3 所 示 的 
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最 优 解 比 对 路 径 ,参考 公式 (2) ,可 得 sim (cs,,cs)) = 
3.59/(9+9)2 =0.399。 由 于 局 部 比 对 的 最 优 解 只 包 
含 cy 与 cy 中 的 部 分 词语 ,而 不 涉及 到 完整 的 比 对 路 


径 ,此 时 局 部 比 对 最 优 解 序列 长 度 为 cs 与 cy 的 初始 
长 度 求 平均 即 (ZL +L)/2 =9。 


基于 GIS 城市 ”规划 知识 。 图 谱 究 现状 趋势 gap 
基于 3.59 1000.00< 一 0.00< 一 0.00 < 一 0.00 < 一 0.00<* 一 0.00 000 000 0.00 
国内 2.59 < 一 2.59 2 2.64 、 0660.00 + 一 0.00 < 一 0.00 < 一 0.00 obo ap0 wi 
医疗 1.80 < 一 1.85 < 一 1.95 < 一 1.95、 .00s0.00 < 一 0.00< 一 0.00 ol op og 
知识 1804 一 185< 一 190+ 一 195 e200 ww000、 000 090 og om 
图 谱 。 0.75 < 一 0.80 < 一 0.85 < 一 0.90 < 一 0.95 < 一 1.00 、1000.00 000 000 000 
医生 0.00< 一 000< 一 0.00< 一 0.00< 一 0.00 < 一 0.00 < 一 0.00 oos0.00 0.00 0.00 
个 性 化 000 + 一 000+ 一 000 < 一 0.00 + 一 0.00 + 一 0.00 + 一 0.00 + 一 0.00 wos0.00 oo 
推荐 。 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00< 一 0.00 aed 
研究 。 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00 < 一 0.00< 一 0.00< o00 。 


gap 0.00<— 0.00<— 0.00 * 一 0.00 * 一 0.00 * 一 0.00 * 一 0.00 * 一 0.00* 一 0.00<— 0.00 


3 cs; 与 cs; 的 局 部 比 对 矩阵 


i 
> 
ON 表 3 改进 的 局 部 比 对 算法 的 最 优 解 比 对 路 径 

规则 完全 匹配 空位 匹配 。 相似 匹配 。 错位 匹配 。 完全 匹配 完全 匹配 错位 匹配 。 错位 匹配 ”错位 匹配 。 空位 匹配 
© 基于 GIS 城市 规划 知识 图 谱 研究 现状 趋势 = 
所 = 基于 = 国内 医疗 知识 图 谱 医生 个 性 化 推荐 研究 
< 1.00 —0.05 0.69 —0.05 1.00 1.00 —0.05 —0.05 —0.05 —0.05 
[ew EE 3.59 2.59 2.64 1.95 2.00 1.00 0.00 0.00 0. 00 0.00 


- sim( es,05;) = Zoo (L,+L)/2 公式 (2) 本 | i | | 

人 各 AAA ~», J 语词 开 和 构建 一 3 | 

3 > 改进 的 中 文 序列 比 对 算法 人 GE 
< 目前 有 关 序 列 比 对 算法 的 研究 大 多 是 将 全 局 比 对 | | 和 ni 
算 轿 应 用 于 文本 相似 度 的 计算 ,而 缺少 对 于 局 部 比 对 | De | 
算 严 的 研究 ,同时 ,全 局 比 对 算法 用 于 文本 相似 度 的 计 pe [| 
算 饮 存在 着 一 定 的 局 限 性 。 因 此 ,笔者 在 目前 相关 研 | | eve | | [KR | | 
究 基 础 上 ,引入 词性 标注 以 更 好 地 度量 词语 间 的 相似 | 中 文 府 列 入 的 构建 | 。 笠 法 兴 择 | | | 
PO | 


关系 ,从 而 提高 全 局 比 对 算法 的 准确 性 ,同时 创新 性 地 
运用 了 局 部 比 对 算法 来 对 全 局 比 对 算法 进行 优化 。 
改进 的 中 文 序列 比 对 算法 具体 流程 如 图 4 所 示 ， 
首先 构建 好 需要 进行 比 对 的 CS ,基于 构建 好 的 语词 对 
打分 矩阵 和 改进 的 打分 规则 对 选择 合适 的 序列 比 对 算 


4 改进 的 中 文 序列 比 对 算法 流程 
比值 大 于 2 的 cs 与 cy 进行 比 对 。 
综 上 所 述 , 当 cs 与 cy 词语 个 数 的 比值 小 于 2 时 ， 
可 直接 对 这 类 序列 进行 全 局 比 对 ,此 时 所 获取 的 解 中 ， 


法 来 比 对 cs; 与 cs;, 最 后 ,根据 最 优 解 的 比 对 路 径 计算 
其 相似 度 。 改 进 后 可 选用 的 序列 比 对 算法 如 下 : 

(1) 全 局 比 对 。 适 用 于 cs; 与 cy 词语 个 数 的 比值 
小 于 2( 长 序列 与 短 序列 的 语词 个 数 比 值 ) 且 全 局 相似 
性 较 好 的 cs; 与 cs 进行 比 对 。 

(2) 局 部 比 对 。 适 用 于 cs; 与 cs 词语 个 数 的 比值 
小 于 2 且 在 内 容 上 差异 较 大 或 词语 间 的 相似 度 较 低 的 
cs; 与 cs; 进行 比 对 。 

(3) 多 次 局 部 比 对 。 适 用 于 cs; 与 cy 词语 个 数 的 


在 全 局 上 具有 较 好 相似 性 的 cs, 与 cy 就 能 获得 较 高 的 
相似 度 计算 结果 ,然后 ,对 那些 相似 计算 结果 较 低 的 
cs 与 cy 使 用 局 部 比 对 算法 ,来 寻找 出 那些 局 部 上 有 和 较 
好 相似 关系 的 cs 与 cy ,从 而 提升 这 类 序列 的 相似 性 计 
算 结果 。 当 cs 与 cy 词语 个 数 的 比值 大 于 2 时 , 较 长 
序列 的 词语 数量 会 多 出 短 序列 很 多 ,此 时 若 进 行 全 局 
比 对 或 局 部 比 对 , 则 会 出 现 大 量 的 空位 匹配 而 导致 很 
差 的 相似 度 计算 结果 ,考虑 到 较 长 序列 中 可 能 存在 不 
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止 一 处 与 短 序 
次 局 部 比 对 。 
3.1 基于 词性 标注 的 全 局 比 对 算法 优化 

在 使 用 全 局 比 对 算法 比 对 cs; 与 cy 的 过 程 中 , 词 
语 之 间 的 匹配 打分 是 通过 语词 对 打分 矩阵 来 提供 的 ， 
如 “研究 ”与 “研究 ”, “服务” 与 “服务 ”的 相似 度 都 为 


列 有 相似 关系 ,因此 对 这 类 序列 进行 多 


1 ,但 这 两 个 词 在 不 同 的 语 境 中 的 用 法 和 词性 可 能 有 所 
不 同 ,如 “研究 ”与 “服务 ”两 个 词 都 能 用 做 动 名 词 


(wn) .动词 (v) 以 及 名 词 (n) ,此 时 ,车 所 比 对 上 的 两 个 
词 为 “研究 ”与 “研究 /n” ,sim (“研究 /v”, “研究 / 
) 应 当 不 为 1。 因 此 笔者 在 使 用 CRF 模型 处 理 中 文 
文本 数据 时 ,除了 分 词 还 进行 了 词性 标注 , 即 在 比 对 打 
分 的 过 程 中 充分 考虑 词性 这 一 因素 来 改进 打分 规则 ， 
从 而 进一步 提高 全 局 比 对 算法 的 准确 性 。 由 于 词性 标 
很 细 ,具体 到 机 构 、 职 业 、 职 务 等 , 比 对 前 , 根 
Ed he eR 些 相同 属性 的 词语 进行 了 合并 ， 
怒 丢 名 词 (vn) . 专 有 名 词 (nx ng 等) 等 合并 为 名 词 ,最 
终 概 进 的 打分 规则 具体 如 下 : 
中 (1) 完全 匹配 。 完全 匹配 的 两 词语 若 词性 相同 ， 
人 


则 打分 1 分 ; 若 词性 不 同 , 则 扣除 0.05 分 ,打分 G =1 
-0.05 =0.95 分 。 

(2) 相似 匹配 。 相 似 匹 配 的 两 词语 若 词 性 相同 ， 
则 参考 语词 对 打分 矩阵 直接 打分 G = sim(ti; ,ti,); 若 
词性 不 同 , 则 扣除 0.05 分 ,G = sim(ti,,ti,) -0.05。 

(3) 错 位 匹配 。 错 位 匹配 的 两 词语 若 词 性 相同 ， 
则 奖励 0.05 分 ,G = -0.05 +0.05 =0 分 ;车 词性 不 
同 , 则 G= -0.05 分 。 

(4) 空 位 匹配 。 
G= -0.05。 

以 表 4 所 示 cs; 与 cs 的 最 优 解 比 对 路 径 为 例 , 基 
于 改进 后 的 打分 规则 , 比 对 过 程 中 ,第 三 组 语词 对 的 打 
分 为 sim(“ 城 方 ”,“ 国 内”) -0.05 =0.64 ,第 四 组 语词 
对 的 打分 为 -0.05 +0.05 =0, 以 此 来 规范 比 对 过 程 中 
对 每 一 组 匹配 结果 的 打分 ,从 而 进一步 提高 全 局 比 对 
算法 应 用 于 中 文 文本 相似 度 计算 的 合理 性 与 准确 性 。 
参考 公式 (1) 计 算 可 得 sim (cs,,cs,) =4.39/12 = 
0.366。 


空位 匹配 的 两 词语 的 打分 统一 为 


表 4 基于 词性 标注 的 全 局 比 对 最 优 解 比 对 路 径 


匹配 ”空位 匹配 ”空位 匹配 ”空位 匹配 ”完全 匹配 ”空位 匹配 ”空位 匹配 


后 儿 规则 完全 匹配 ”空位 匹配 ”相似 匹配 ”错位 匹配 ”完全 匹配 ”完全 


一 
>: 基于 GIS 城市 规划 知识 注 - - 研究 现状 趋势 
| 
C 泣 性 p n n n n n n n n 
加 图 
Ss 基于 二 国内 医疗 知识 普 医 4 个 性 化 推荐 研究 一 和 
所 局 性 p n n n n n n n n 
(any 1 —0.05 0.69 —0.05 +0.05 1.00 1.00 -0.05 —0.05 -0.05 1.00 —0.05 一 0.05 
A 
全 4.39 3.39 3.44 .3 | ie 0.75 0.80 0. 85 0.90 —0.10 一 0.05 


3 中 利用 局 部 比 对 算法 改进 全 局 比 对 算法 

Qu 与 cs; 的 内 容 差 异 较 大 时 ,全 局 比 对 算法 并 
不 适用 ,基于 改进 后 的 打分 规则 ,笔者 应 用 局 部 比 对 算 
法 ,来 递归 求解 内 容 差 异 较 大 的 两 中 文 序列 局 部 上 的 
相似 性 而 非 全 局 上 的 相似 性 ,以 更 好 地 度量 与 计算 cs， 
与 cs; 的 相似 度 。 


以 表 5 所 示 cs; 与 cy 的 最 优 解 比 对 路 径 为 例 , 在 
该 路 径 中 ,所 有 S <0 的 值 都 被 计 为 0, 基 于 改进 后 的 打 
分 规则 , 比 对 过 程 中 ,错位 匹配 的 四 组 词语 由 于 词性 相 
同 C =0.00 分 ,最 终 , 参 考 公 式 (2) 计算 可 得 sim( ces， 
cs;) =3.64/9 =0.404。 


表 5 改进 的 局 部 比 对 算法 的 最 优 解 比 对 路 径 
打分 规则 完全 匹配 空位 匹配 相似 匹配 错位 匹配 完全 匹配 完全 匹配 错位 匹配 错位 匹配 错位 匹配 空位 匹配 

C81 基于 GIS 城市 规划 知识 图 谱 研究 现状 趋势 四 

词性 p n n n n n n n n 
C3 基于 = 国内 医疗 知识 色谱 医生 个 性 化 推荐 研究 

词性 p n n n n n n n n 
G 1.00 —0.05 0.69 一 0.05 +0.05 1.00 1.00 —0.05 +0.05 —0.05+0.05 -0.05 +0.05 —0.05 
S 3.64 2.64 2.69 2:00 2.00 1.00 0.00 0 0.00 0.00 

3.3 ”多 次 局 部 比 对 一 一 基于 局 部 比 对 算法 的 改进 法 已 然 难 以 适用 ,基于 改进 的 打分 规则 与 局 部 比 对 算 


当 cs; 与 cy 的 序列 长 度 差 异 较 大 时 ,全 局 比 对 算 


法 , 当 较 长 序列 的 词语 数量 是 短 序列 的 2 倍 及 以 上 时 ， 
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首先 对 较 长 的 中 文 序列 进行 切 分 ,再 分 别 与 较 短 的 中 
文 序列 进行 局 部 比 对 ,最 后 ,综合 全 部 的 比 对 结果 来 计 
算 sim( cs; ,cs;)。 

以 cs; =[ 科学 知识 ,图 谱 , 学 科 知 识 , 服 务 ,应 用 ， 
探析 ] 与 c=[ 通 过 ,科学 知识 ,图 说 ,人 文 , 社 科 类 ,学 
科 , 自 然 科 学 ,学 科 , 有 具体, 应 用 ,实例 ,梳理 ,总 结 ,科学 
知识 ,图 谱 , 学 税 知 识 ,服务 ,应 用 , 符 点 ] 为 例 ,cs; 与 63 
所 含 词语 个 数 分 别 为 L, =6 与 7 =79, 首 先 ,以 cs; 的 词 


语 个 数 为 基础 对 cs 进行 切 分 ,将 cs 切 分 为 三 个 序列 
cs ,C32 ,C38 ,三 个 序列 分 别 含 有 6.6 7 个 词 ;然后 ,参考 
语词 对 打分 矩阵 和 改进 的 打分 规则 将 cs; 依次 与 这 三 
个 序列 进行 局 部 比 对 ;最 终 ,综合 三 次 的 比 对 结果 ( 见 
表 6) ,参考 公式 (3 ) 计算 得 到 相似 度 sim (cs; ,cs;) = 
(2.61 +1.51 +5.67)/[6 x2+6x2+(6+7)]/2= 
0.529。 


表 6 改进 的 多 次 局 部 比 对 算法 的 最 优 解 比 对 路 径 


打分 规则 空位 匹配 完全 匹配 完全 匹配 错位 匹配 错位 匹配 相似 匹配 空位 匹配 
si = 科学 知识 | 谱 学 科 知 识 服务 应 用 探析 
词性 n n n V n n 
Cs 通过 科学 知识 中 谱 人 文 社 科 类 学 和 一 
词性 p n n n n n 
5 G —0.05 1.00 1.00 —0.05 —0.05 0.71 一 0.05 
| 2.56 2.61 到 的 0.61 0. 66 村 型 0.00 
人 打分 规则 错位 匹配 错位 匹配 错位 匹配 相似 匹配 相似 匹配 错位 匹配 
2 or 科学 知识 图 谱 学 科 知识 服务 应 用 探析 
词 必 n n nz V n n 
© 
< csp 自然 科学 学 科 具体 应 用 实 个 梳理 
词性 n n ad V n n 
©O 
CD 全 —0.05 +0.05 —0.05 —0.05 0.69 0.82 —0.05 +0.05 
CN s 1.41 1.41 1.46 1.51 0.82 0.00 
《分 规则 空位 匹配 完全 匹配 完全 匹配 完全 匹配 完全 匹配 完全 匹配 相似 匹配 
i csi = 科学 知识 图 谱 学 科 知 识 服务 应 探析 
> 词性 n n n V n n 
DC cs 有 总 结 科学 知识 图 谱 学 科 知识 服务 应 用 特点 
5G 词性 V n n n V V n 
CS 人 —0.05 1.00 1.00 1.00 1.00 1.00 0.67 
,全 S 5.62 $67 4.67 3.67 2.67 1.67 0.67 
© 
si es er j= sim( ti sb, ) 在 线 学 术 资 源 数据 。 同 时 ,考虑 到 训练 词 向 量 模型 所 
下 . n=1 a. = 庐 六 瑚 业 \ 全 » | Ey 
| [D+the+L,) +Lixm]/ 人 2 | 需 语 料 的 规模 、 全 面 性 以 及 时 效 性 ,笔者 下 载 最 新 的 中 
公式 (3 ) 文 维基 百科 语料库 来 训练 Word2Vec。 


4 实验 研究 


本 节 针 对 采集 的 中 文 文本 进行 比 对 ,并 以 具有 代 
表 性 的 比 对 结果 来 展示 和 分 析 不 同 序 列 比 对 算法 的 优 
势 之 处 与 算法 的 准确 性 。 
4.1 中文 文 本 数据 采集 与 预 处 理 

为 检验 所 使 用 方法 的 实践 价值 与 应 用 价值 ,本 文 
选取 了 在 线 学 术 资 源 数据 作为 所 要 研究 的 中 文 文本 数 
据 集 。 鉴 于 CNKI 具备 丰富 全 面 的 文献 资源 .快速 迅 
捷 的 检索 窗口 以 及 精准 清晰 的 批量 检索 等 优势 ,笔者 
导出 了 中 国 知 网 2020 年 1 月 -2020 年 8 月 检索 主题 
为 “知识 图 谱 ” 的 中 文 文献 题名 、 关 键 词 以 及 摘要 作为 


针对 在 线 学 术 资 源 数 据 集 ,以 “知识 图 谱 ” 为 关键 
词 检索 出 的 部 分 文献 ,其 题名 与 知识 图 谱 无 关 , 但 其 内 
容 可 能 有 关 , 因 此 仍 保留 这 部 分 数据 ,最 后 对 所 有 的 在 
线 学 术 资 源 数据 集 ,使 用 HanLP 的 CRF 模型 依次 进行 
分 词 .词性 标注 ,最 终 ,得 到 一 个 包含 了 747 条 数据 的 
在 线 学 术 资 源 中 文 序列 集 OARCS, 部 分 数据 如 表 7 所 
示 , 因 摘要 过 长 , 表 中 仪 显示 部 分 文献 题名 数据 。 

针对 训练 语 料 , 访 问 https://dumps. wikimedia. org/ 
zhwiki/latest/ 下 载 最 新 的 维基 百科 语 料 XML 文件 ,从 该 
XML 文件 中 抽取 出 所 有 的 中 文 文本 并 使 用 Python 中 的 
OpenCC 完成 繁 简 转 化 ,最 终 , 再 次 使 用 HanLP 的 CRF 模 
型 进行 分 词 ,以 供给 后 续 训 练 Word2Vec 使 用 。 
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表 7 在 线 学 术 资 源 中 文 序列 集 


Cs1 基于 领域 知识 图 谱 生命 医学 学 科 知识 发 现 探析 
词性 p n n n n n n Vv n 
C52 基于 大 规模 开放 学 术 图 谱 研究 前 沿 分 析 框架 
词性 p 0 V n n n S Vv n 
C3747 当代 中 国 卓越 教师 研究 热点 知识 图 谱 可 视 化 分 析 
词性 t n a n n n n n V V 
4.2 语词 对 打分 矩阵 的 构建 (5 ) > 的 语词 对 供给 比 对 打分 所 参考 ,而 将 sim 


语词 对 打分 矩阵 作为 序列 比 对 算法 的 核心 基础 ， 
直接 关系 到 序列 比 对 算法 的 最 终 效果 和 准确 性 ,因此 
笔者 在 运用 Word2Vec 来 构建 语词 对 打分 矩阵 的 基础 
上 ,还 对 打分 矩阵 进行 了 一 定 的 优化 。 

nt Word2Vec 的 训练 与 语词 对 相似 度 计 算 

使 用 处 理 好 的 维基 百科 语 料 来 训练 Word2Vee 的 
SepyCram 模型 。 相 关 参 数 设 定 如 下 : 词 向 量 维度 Size 
Ja， 向 量 上 下 文 距离 Windows =5, 忽 略语 料 中 的 最 
/min_count = 1。 基 于 预 处 理 好 的 OARCS 以 及 
训练 好 的 Word2Vec ,进一步 计算 词语 之 间 的 相似 度 ， 
nO et a 
Cs 2 ti, 与 cs = 1b, ty, ty, 
ee es et 
,向量 的 作 缀 相似 度 sm (ist ) 作为 构建 语词 
打 芬 年 阵 的 核心 基础 。 

4PK2 语词 对 打分 和 矩阵 的 优化 
外文 序 列 的 比 对 , 介 于 不 同 条 件 下 ,对 于 序列 比 对 
算 总 的 比 对 粒度 精细 度 ,准确 度 的 要 求 不 同 ,要 适当 
地 酒 整 打 分 矩阵 。 打分 矩阵 中 语词 对 的 相似 度 介 于 0 
-1.0 之 间 , 如 图 5 所 示 , 当 对 于 两 文本 进行 比 对 的 准 
确 度 要 求 较 高 时 , 则 调 高 和 的 值 , 令 打分 矩阵 保留 sim 


(xy) <A 的 词语 对 放 和 人 非 打 分 词 库 保存 起 来 。 若 


下 一 次 比 对 又 一 次 调整 了 和 ,只 需 参 考 人 调整 语词 对 
打分 矩阵 和 非 打 分 词 库 即 可 。 
Word2Vec | | Sim(cs,,cs,) sim(tiptip)> 和 A > 0 
| 否 
| 
mds | 扣 与 如 向 量化 > 人 能 | 非 打分 词 库 


图 5 语词 对 打分 矩阵 的 调整 


在 打分 矩阵 中 ,会 存在 部 分 重复 的 sim(t, ,i,)， 
例如 当 cs; 与 cy 中 都 含有 “人 研究”“ 探 究 ”两 个 词语 , 则 
计算 语词 对 相似 度 后 会 出 现 sim( “研究”, “探究 ”) = 
0. 80 sim( 换 究 "， 研 究 `" ) =0. 80 ,为 避免 这 类 语词 


对 在 打分 和 矩阵 中 占用 额外 的 空间 ,从 而 导致 本 文 算法 
出 现 更 高 的 时 间 复 杂 度 和 空间 复杂 度 , 则 需要 对 这 类 


结果 进行 去 重 再 放 和 打分 矩阵 当中 以 提高 序列 比 对 算 
法 的 运行 效率 ,最 终 ,针对 所 要 比 对 的 在 线 学 术 资 源 中 
文 序列 构建 语词 对 打分 和 矩阵, 取 入 =0.7, 此 时 ,在 打分 
和 矩阵 中 保留 所 有 sim(ti;,t;,) >0.7 的 语词 对 ,同时 ,将 
sim(tii,t;,) 志 0.7 的 语词 对 放 入 非 打 分 词 库 中 ,得 到 
如 表 8 所 示 的 打分 和 矩阵。 


表 8 OARCS 语词 对 打分 矩阵 


创新 方法 分 析 规划 技术 领域 热点 学 科 

服务 0.72 —0.05 —0.05 0.72 0.72 —0.05 —0.05 —0.05 
科技 0.85 —0.05 —0.05 —0.05 0.85 0.78 —0.05 0.74 

前 景 0.80 —0.05 0.73 0.71 0.74 0.74 0.75 —0.05 
特点 0.73 0.75 —0.05 —0.05 0.73 0.74 0.71 —0.05 
推断 —0.05 —0.05 0.79 —0.05 —0.05 —0.05 —0.05 —0.05 
探析 0.72 —0.05 0.7 —0.05 —0.05 —0.05 —0.05 —0.05 

4.3 ”在 线 学 术 资 源 中 文 序列 比 对 列 如 表 9 所 示 , 将 表 中 左 侧 的 序列 与 右 侧 序列 进行 比 


经 过 前 述 部 分 ,此 时 已 获得 预 处 理 好 的 OARCS 以 
及 构建 好 的 语词 对 打分 和 矩阵 ,基于 改进 的 打分 规则 ,对 
中 文 序列 从 尾 到 头 进行 比 对 ,部 分 所 要 对 比 的 中 文 序 


对 , 即 ID 为 cs 与 DD 为 cs, 的 序列 进行 比 对 ,ID 为 cs 
与 ID 为 csy 的 序列 进行 比 对 , 依 此 类 推 , 直 到 cs; 与 cs 
比 对 结束 。 
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表 9 所 要 比 对 的 中 文 序列 (部 分 ) 


ID 在 线 学 资源 中 文 序列 D 在 线 学 术 资源 中 文 序列 
cl | 高 校 让 , 科研 /n, 管理 /n, 研究 /n, 热点 /nm， 趋势 /n， 2 | 高 校 让 ,科研 /n, 绩效 评价 /n, 研究 /n, 热点 /n, 趋势 /n, 基于 /p, 可 视 化 /v， 
分 析 /n, 基于 /p，CiteSpace/nx, 可 视 化 An, 分 析 /n) 知识 /n, 图 谱 /n, 分析 /v] | 
cs3 ”| 基于 /p,Citespace/nx, 城市 (n， 热风/n, 环境 /0, 研 。 cs4 ”| 基于 /p, CiteSpace/nx, 城市 /n, 生态 /n, 修复 A, 研究 入, 知识 An， 图 谱 /n， 
究 /n, 知识 /n, 图 谱 /n, 分 析 /v| 分 析 /v| 
cs | 基于 /p， 知识 An, 图谱 /n, 构建 /v, 高 职 院 /n, 校内 es6 ”| 基于 /p, 交互 式 /n, 可 视 化 /v， 领域 mm, 知识 /mn， 图 谱 /n, 构建 /v, 研究 /n| 
部 /n， 控制 An, 体系/n, 研究 /nl 
G7 | 国际 /n， 人工/n, 智能 /n, 伦理 /n, 研究 /n， 现状 Xn， Gs | 基于 /p, 知识 /n, 图 谱 /n, 建筑 ,科学 mn, 工程 /hn， 人 工 /n, 智能 /n, 研究 / 
发 展 趋势 /| n, 趋势 /n， 分 析 /n| 
cs9 | 科学 知识 /n, 图谱/n， 学 科 /n, 精准 /a, 服务 /n, 中 cs10。 ”| 通过 /p, 科学 知识 An, 图 谱 /n， 人文 /n, 社 科 类 /n, 学 科 /n， 自 然 科学 /n, 学 
的 /v, 应用/v， 探索 /v| 科 /n, 具体 /ad, 应 用 /v， 实例 /n, 梳理 /n， 总 结 /v, 科学 知识 4n, 图 谱 /n, 学 
科 知识 An， 服 务 /v， 应 用 Av， 特 点/n， 指出/v， 创 新作 ,形式 /n,， 专利 /n, 图 
谱 /n, 学 科 /n, 柑 人 式 /b, 服务 An, 技术 An， 预见, 科学 知识 /n, 图 谱 /n, 学 
科 知识 An， 服务 作 ,应 用 /n ， 前景/n， 同 时 /e, 分 析 /v， 科 学 知识 /mn， 图 谱 /n， 
学 科 知识 /mn， 服务/v, 运用 /v, 注意 事项 An | 


内 /s, 深度 /n, 学 习 /v, 研究 人， 知识 人 ， 


图 谱 /n | 6 


| 文章 An, 从 /Pp，, 深度 /n, 和 学习/Av, 研究 /n, 现状 An, 内涵， 入 手 /v, 利 


dAv, 


文献 /n, 计量 法 /n, 有 关 /n, 深度 An, 学 习 /v, 426/m, 篇 /q, 文献 /n, 进行 作 ， 


论文 /n， 
文献 /n， 
Vy, 初步 小 , 知识/n， 
用 /n， 


影响 力 /n, 分 析 An, 对 Ap，, 排名 Av， 前 Af,，20% Am, 文献 /n， 进行 Av， 
年 代 /n, 期 刊 /n, 发 布 /v, 作者 /n, 分 析 /n, 得 出 /v, 深度 An, 学 习 / 
图 谱 /n， 以 期 Av, 促进 Av, 深度 /n, 学 习 /n, 技术 /n， 应 


发 展 /n | 


一 实验 结果 及 评价 

ON 为 了 凸显 本 文 研究 相 较 已 有 研究 的 优势 之 处 ,本 

用 不 同 的 序列 比 对 算法 比 对 并 计算 了 表 9 所 示 中 

文 阅 列 的 相似 度 ,同时 ,设置 了 不 同 的 语词 对 打分 矩阵 

参 要 来 进一步 比较 算法 效果 ,不 同 算法 所 得 结果 见 

表 U( 其 中 ,传统 全 局 比 对 算法 相似 度 计算 结 果 不 参 
建 的 打分 矩阵 与 词性 标注 的 结果 ) 。 


结果 ) 。 显 然 , 相 较 于 
1 


的 全 局 比 对 算法 ,本 文 方法 基于 Word2Vec 构建 的 
语词 对 打分 和 矩阵 与 词性 标注 的 结果 所 计算 的 文本 相似 
度 在 整体 上 均 有 所 提升 。 


细致 比较 表 9 所 示 中 文 序列 ,实际 上 ,cs 与 cs ,cs 


与 cs 的 比 对 ,序列 之 间 的 内 容 差异 与 长 短 差 异 小 ( 即 
序列 之 间 全 局 相似 性 较 好 , 且 序 列 之 间 词 语 个 数 的 倍 
数 小 于 2) ,使 用 全 局 比 对 算法 的 效果 更 加 理想 ;css 与 
css ,037 与 css 的 比 对 ,序列 之 间 的 内 容 差异 较 大 而 长 短 
差异 较 小 ( 即 序列 之 间 局 部 相似 性 较 好 ,同时 ,序列 之 
间 词 语 个 数 的 倍数 小 于 2) ,此 时 使 用 局 部 比 对 算法 的 
效果 相 比 全 局 比 对 算法 更 为 出 色 ;cs 与 cg,csy 与 csn 
的 比 对 ,序列 之 间 长 短 差异 很 大 ( 即 序列 之 间 词 语 个 数 
的 倍数 大 于 2) ,对 这 类 序列 的 相似 度 计算 ,选用 多 次 
局 部 比 对 算法 相 比 其 他 算法 效果 更 好 。 


表 10 OARCS 在 不 同方 法 中 的 相似 度 计算 结果 


OARCS OARGS 传统 全 局 比 对 人 对 改进 比 对 ee ， 对 
csl cs2 0. 596 0. 608 0.740 0.729 0.729 
cs3 cs4 0.777 0.777 0.901 0. 896 0. 896 
655 cs6 0.388 0. 490 0. 665 0.704 0. 704 
cs7 cs8 0. 213 0. 328 0.382 0. 533 0. 533 
cs9 cs10 0. 072 0. 108 0. 107 0. 225 0. 493 
esi 5 0. 064 0.079 0.079 0. 200 0.584 
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为 了 更 加 直观 地 展现 本 文 方法 的 效果 ,将 表 10 做 
成 图 6 所 示 折 线 图 ,前 三 组 中 文 序列 的 比 对 ,传统 全 局 
比 对 算法 与 改进 的 全 局 比 对 算法 (A =0.7) 效 果 相 当 ， 
主要 是 因为 A=0.7 时 ,调整 后 打分 矩阵 中 满足 打分 条 
件 sim(4i4,4,) > 和 的 相似 语词 就 会 大 大 减少 ,导致 比 
对 得 分 降低 ,最 终 ,两 种 相似 度 计算 结果 的 差异 就 较 
小 。 当 调整 为 A =0 时 ,打分 矩阵 中 可 供 打分 参考 的 相 
似 词语 显著 增加 ,此 时 ,本 文 方法 的 效果 就 有 了 较 大 的 
提升 。 


一 一 传统 全 局 比 对 
， -局 部 比 对 入 =0 


=- 改进 的 全 局 比 对 一 一 改进 的 全 局 比 对 入 =0 
一 -多 次 局 部 比 对 入 =0 


图 6 不 同方 法 的 相似 度 计算 结果 比较 


一 从 实证 过 程 来 看 ,构建 打分 算 阵 的 Word2Vee 虽然 
能 够 很 好 地 将 训练 其 自身 的 语 料 以 特征 向 量 的 形式 表 
芽 如 来 ,但 这 些 词 向 量 却 无 法 表示 文本 原来 的 语词 顺 
访 而 本 文 所 改进 的 全 局 比 对 算法 和 所 应 用 的 局 部 比 
对 算法 , 均 严 格 按照 语词 顺序 来 比 对 两 个 文本 的 相似 
你 ,同时 , 参考 CRF 模型 词性 标注 的 结果 与 
Wapvee 构建 的 语词 对 打分 抢 阵 ,不 仅 考虑 了 词语 之 
间 的 含义 ,也 提升 了 本 文 方法 的 效果 。 传 统 的 文本 相 
似 良 计算 方法 将 词语 看 作 字符 来 进行 比较 缺乏 对 于 词 
语 侃 间 含 义 与 关联 的 考虑 ,本 文 方法 使 用 Word2Vec 有 
效 解决 了 该 问题 ,同时 比 对 过 程 严格 按照 词语 顺序 进 
行 ,能 够 更 好 地 度量 两 文本 的 相似 关系 。 

改进 的 全 局 比 对 算法 虽然 能 够 较 好 地 应 用 于 在 全 
局 上 具有 较 好 相似 关系 的 两 中 文 序列 的 比 对 ,但 对 于 
内 容 差 异 较 大 .长 短 差异 较 大 的 两 中 文 序列 的 比 对 , 效 
果 较 差 ,而 本 文中 所 应 用 的 局 部 比 对 算法 与 多 次 局 部 
比 对 算法 则 较 好 地 解决 了 这 一 问题 ,使 得 序列 比 对 算 
法 能 够 更 好 地 运用 于 中 文 文本 相似 度 的 计算 。 


5 结语 


本 文 基于 词性 标注 的 结果 与 构建 的 语词 对 打分 矩 
阵 改 进 了 全 局 比 对 算法 ,并 应 用 局 部 比 对 算法 来 弥补 
了 全 局 比 对 算法 用 于 计算 文本 相似 度 的 不 足 之 处 : 
QD 序列 比 对 算法 的 效果 非常 依赖 于 研究 前 期 对 中 文 文 


本 进行 自然 语言 处 理 的 效果 ,本 文选 用 HanLP 中 对 新 
词 具 有 良好 识别 效果 的 CRF 进行 分 词 ,保障 了 构建 中 
文 序列 集合 的 规范 性 与 准确 性 ;@ 比 对 过 程 中 对 于 匹 
配 上 的 两 词语 进行 词性 判断 ,能 够 使 得 比 对 打分 更 加 
合理 ,从 而 提升 序列 比 对 算法 的 准确 性 ,笔者 实证 使 用 
的 CRF 模型 融合 了 HanLP 工具 处 理 自然 语言 的 核心 
技术 ,词性 标注 的 结果 也 更 加 准确 、 细 胀 ;@@ 语 词 对 打 
分 矩阵 的 构建 是 序列 比 对 算法 得 以 良好 应 用 于 中 文 文 
本 相似 度 计 算 的 核心 基础 ,虽然 本 文选 取 了 通用 语 料 
来 训练 Word2Vec ,但 是 最 新 的 维基 百科 语料库 已 经 具 
备 足够 的 覆盖 广度 和 较 大 的 语 料 规模 ,所 构建 的 语词 
对 打分 和 矩阵 有 不 错 的 参考 价值 和 效果 ;中 笔者 合理 运 
用 局 部 比 对 算法 ,使 得 序列 比 对 算法 能 够 更 好 地 应 用 
于 文本 相似 度 计算 的 研究 当中 ,这 也 为 该 算法 用 于 语 
义 挖 气 \ 文 本 分 类 与 聚 类 .个 性 化 推荐 智能 检索 等 英 
定 了 一 定 的 理论 基础 和 实践 基础 。 

经 过 大 量 的 数据 测试 ,基于 图 情 领 域 出 色 的 算法 
和 工具 ,针对 中 文 “特色 ”所 改进 的 序列 比 对 算法 已 能 
够 较 好 应 用 到 文本 相似 度 比 较 当 中 。 参 考生 物 信息 学 
领域 对 序列 比 对 算法 的 研究 ,本 文 的 研究 已 经 为 使 用 
序列 比 对 算法 进行 文本 分 类 上 聚 类 打下 了 良好 的 基础 ， 
下 一 阶段 ,笔者 将 获取 有 效 的 中 文 数据 ,基于 序列 比 对 
算法 扎实 的 理论 基础 和 丰富 的 研究 成 果 ,尝试 对 规范 
化 的 中 文 序列 进行 分 类 聚 类 ,同时 ,结合 图 情 领 域 的 研 
究 方法 及 算法 工具 进一步 探索 中 文 文本 之 间 更 深层 次 
的 关联 与 意义 。 
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Absiract: | Purpose/significance | Aiming at the application of sequence alignment algorithm in text similarity ， 
the global alignment algorithm is improved and the accuracy of the algorithm is improved. At the same time, the local 
alignment algorithm is used to effectively solve the problem of comparing two texts with different content or with differ- 
ent length. | Method/process | First, the CRF model in HanLP was used to normalize the Chinese text data set of 
the online academic resources and constitute the Chinese sequence set. Then, Word2Vec model was trained with the 
latest Chinese Wikipedia corpus to construct the word pair scoring matrix. Finally, based on the scoring matrix and 
the improved scoring rules, the two Chinese sequences of global/local alignment were compared and the optimal solu- 
tion of the alignment was obtained. The optimal solution was backtracked to obtain the alignment path of the optimal 
solution and the similarity of the two Chinese sequences was calculated. | Result/conclusion | The experiment re- 
salts show that compared with the current research of global alignment algorithm, the method based on the results of 
i part-of-speech tagging and Word2 Vec build words to further improve the global alignment score matrix algorithm 
applied to the accuracy of computing text similarity of local alignment algorithm can effectively solve the content 
Leifferences or differences in the length of two text comparing problems. 
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创新 警 相关 问题 。 稿 件 可 侧重 于 理论 ,也 可 侧重 于 应 用 ,技术 、 方 法 、 ”如 作者 不 同意 收录 ,请 在 投稿 时 提出 声明 。 
模 量 < 最 佳 实践 等 。 7. 费用 

C2 学 术 道 德 要 求 2016 年 1 月 1 日 起 ,在 (知识 管理 论坛 》E 发 表 论 文 ,将 免 收 稿 


人 投稿 必须 为 未 公开 发 表 的 原创 性 研究 论文 , 选 题 与 内 容 具有 -- ” 件 处 理 费 。 

定 的 创新 性 。 引 用 他 人 成 果 , 请 务必 按 《著作 权 法 》 有 关 规 定 指明 原 8. 关于 开放 获取 

作者 姓名 作品 名 称 及 其 来 源 ,在 文 后 参考 文献 中 列 出 。 本 刊 发 表 的 所 有 研究 论文 ,其 出 版 版 本 的 PDF 均 须 通过 本 刊 网 
本 刊 使 用 CNKI 科技 期 刊 学 术 不 端 文献 检测 系统 (AMLC) 对 来 。 站 (www. kmf ac. en) 在 发 表 后 立即 实施 开放 获取 ,鼓励 自 存储 ,基本 

稿 进 行 论文 相似 度 检测 ,如 果 稿件 存在 学 术 不 端 行为 ,一 经 发 现 概 不 。 ”许可 方式 为 CC - BY( 署 名 ) 。 详 情 参阅 期 刊 首页 OA 声明 。 

录用 ;车 论文 在 发 表 后 被 发 现 有 学 术 不 端 行为 ,我 们 会 对 其 进行 撒 稿 9. 选 题 范围 

处 理 ,涉嫌 学 术 不 端 行为 的 稿件 作者 将 进入 我 刊 黑 名 单 。 互联 网 与 知识 管理 .大 数据 与 知识 计算 .数据 监护 与 知识 组 织 、 
3. 署名 与 版 权 问题 实践 社区 与 知识 运营 .内 容 管理 与 知识 共享 .数据 关联 与 知识 图 谱 、 
作者 应 该 是 论文 的 创意 者 .实践 者 或 扎 稿 者 , 即 论文 的 责任 者 与 著 。 ”开放 创新 与 知识 创造 .数据 挖掘 与 知识 发 现 。 

作 权 拥有 者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 ,作者 文责 自负 。 所 10. 关于 数据 集 出 版 

有 作者 要 对 所 提交 的 稿件 进行 最 后 确认 。 为 方便 学 术 论文 数据 的 管理 .共享 .存储 和 重用 ,近日 我 们 通过 
4. 写作 规范 中 国 科学 院 网 络 中 心 的 ScienceDB 平台 (www. sciencedb. cn) 开通 数 
本 刊 严 格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现行 的 国家 标准 。“ 据 出 版 服务 ,该 平台 支持 任意 格式 的 数据 集 提交 ,欢迎 各 位 作者 在 投 

及 规范 撰写 ;单位 采用 国际 单位 制 ,用 相应 的 规范 符号 表示 。 稿 的 同时 提交 与 论文 相关 的 数据 集 (稿件 提交 的 第 5 步 即 进入 提交 
5. 评审 程序 数据 集 流程 ) 。 
执行 严格 的 三 审 制 , 即 初审 .复审 ( 双 讶 同行 评议 ) 终审。 11. 投稿 途径 
6. 发 布 渠道 与 形式 本 刊 唯一 投稿 途径 :登录 www. kmf ac. en ,点 击 作者 投稿 系统 ， 
稿件 主要 通过 网 络 发 表 ,如 我 刊 的 网 站 (www. kmf ac. en) 和 我 刊 授权 ”根据 提示 进行 操作 即 可 。 

的 数据 库 。 
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